We study the hidden-action principal-agent problem in an online setting. In each round, the principal posts a contract that specifies the payment to the agent based on each outcome. The agent then makes a strategic choice of action that maximizes her own utility, but the action is not directly observable by the principal. The principal observes the outcome and receives utility from the agent's choice of action. Based on past observations, the principal dynamically adjusts the contracts with the goal of maximizing her utility. We introduce an online learning algorithm and provide an upper bound on its Stackelberg regret. We show that when the contract space is $[0,1]^m$, the Stackelberg regret is upper bounded by $\widetilde O(\sqrt{m} \cdot T^{1-C/m})$, and lower bounded by $\Omega(T^{1-1/(m+2)})$. This result shows that exponential-in-$m$ samples are both sufficient and necessary to learn a near-optimal contract, resolving an open problem on the hardness of online contract design. When contracts are restricted to some subset $\mathcal{F} \subset [0,1]^m$, we define an intrinsic dimension of $\mathcal{F}$ that depends on the covering number of the spherical code in the space and bound the regret in terms of this intrinsic dimension. When $\mathcal{F}$ is the family of linear contracts, the Stackelberg regret grows exactly as $\Theta(T^{2/3})$. The contract design problem is challenging because the utility function is discontinuous. Bounding the discretization error in this setting has been an open problem. In this paper, we identify a limited set of directions in which the utility function is continuous, allowing us to design a new discretization method and bound its error. This approach enables the first upper bound with no restrictions on the contract and action space.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
非滑动非概念优化问题在机器学习和业务决策中广泛出现,而两个核心挑战阻碍了具有有限时间收敛保证的有效解决方案方法的开发:缺乏计算可触及的最佳标准和缺乏计算功能强大的口腔。本文的贡献是两个方面。首先,我们建立了著名的Goldstein Subdferential〜 \ Citep {Goldstein-1977-Optimization}与均匀平滑之间的关系,从而为设计有限时间融合到一组无梯度的方法的基础和直觉提供了基础和直觉戈德斯坦固定点。其次,我们提出了无梯度方法(GFM)和随机GFM,用于解决一类非平滑非凸优化问题,并证明它们两个都可以返回$(\ delta,\ epsilon)$ - Lipschitz函数的Goldstein Sentary Point $ f $以$ o(d^{3/2} \ delta^{ - 1} \ epsilon^{ - 4})$的预期收敛速率为$ o(d^{3/2} \ delta^{ - 1} \ epsilon^{ - 4})$,其中$ d $是问题维度。还提出了两阶段版本的GFM和SGFM,并被证明可以改善大泄漏结果。最后,我们证明了2-SGFM使用\ textsc {minst}数据集对训练Relu神经网络的有效性。
translated by 谷歌翻译
通用数据模型解决了标准化电子健康记录(EHR)数据的许多挑战,但无法将其集成深度表型所需的资源。开放的生物学和生物医学本体论(OBO)铸造本体论提供了可用于生物学知识的语义计算表示,并能够整合多种生物医学数据。但是,将EHR数据映射到OBO Foundry本体论需要大量的手动策展和域专业知识。我们介绍了一个框架,用于将观察性医学成果合作伙伴关系(OMOP)标准词汇介绍给OBO铸造本体。使用此框架,我们制作了92,367条条件,8,615种药物成分和10,673个测量结果的映射。域专家验证了映射准确性,并且在24家医院进行检查时,映射覆盖了99%的条件和药物成分和68%的测量结果。最后,我们证明OMOP2OBO映射可以帮助系统地识别可能受益于基因检测的未诊断罕见病患者。
translated by 谷歌翻译
众所周知,传统平台之间的竞争可以通过将平台的操作与用户偏好保持一致,从而改善用户实用性。但是,在数据驱动的市场中表现出多大的一致性?为了从理论的角度研究这个问题,我们介绍了一个双重垄断市场,平台动作是强盗算法,两个平台竞争用户参与。该市场的一个显着特征是,建议的质量取决于强盗算法和用户交互提供的数据量。算法性能与用户的动作之间的这种相互依赖性使市场平衡的结构及其在用户公用事业方面的质量复杂化。我们的主要发现是,该市场的竞争并不能完全使市场成果与用户公用事业完全融合。有趣的是,市场成果不仅在平台拥有单独的数据存储库时,而且在平台具有共享数据存储库时表现不对。尽管如此,数据共享假设会影响什么机制驱动未对准的机制,并影响未对准的特定形式(例如,最佳案例和最差的市场成果的质量)。从更广泛的角度来看,我们的工作说明了数字市场中的竞争对用户实用性产生了微妙的后果,值得进一步调查。
translated by 谷歌翻译
我们研究了一种建设性算法,该算法通过有限差异来近似于统计功能的GATEAUX衍生物,重点是因果推理功能。我们考虑了不知道先验性的概率分布,但还需要从数据估算的情况。这些估计的分布导致了经验性Gateaux衍生物,我们研究了经验,数值和分析性GATEAUX衍生物之间的关系。从反事实平均估计的案例研究开始,我们实例化有限差异与分析性GATEAUX衍生物之间的确切关系。然后,我们得出了对扰动和平滑度数值近似速率的要求,以保留一步调整的统计益处,例如速率双重运动。然后,我们研究了更复杂的功能,例如动态治疗方案和无限马尔可夫决策过程中的策略优化的线性编程公式。在存在任意约束的情况下,新发现的近似偏差调整的能力说明了构建方法对Gateaux衍生物的有用性。我们还发现,功能性(速率双重鲁棒性)的统计结构可以允许较少的有限差近似速率保守速率。但是,此属性可以特定于特定功能,例如它是针对事实的平均值,但不是无限 - 摩恩MDP策略价值。
translated by 谷歌翻译
因果图发现和因果效应估计是因果推断的两个基本任务。尽管已经为每个任务开发了许多方法,但共同应用这些方法时会出现统计挑战:在同一数据上运行因果发现算法后,估算因果关系效应,导致“双重浸入”,使经典置信区间的覆盖范围无效。为此,我们开发了有效的可获得后发现推断的工具。一个关键的贡献是贪婪等效搜索(GES)算法的随机版本,该算法允许对经典置信区间进行有效的有限样本校正。在经验研究中,我们表明,因果发现和随后的推断算法的幼稚组合通常会导致高度膨胀的误导率。同时,我们的嘈杂的GES方法提供了可靠的覆盖范围控制,同时获得比数据拆分更准确的因果图恢复。
translated by 谷歌翻译
我们考虑在具有非线性函数近似的两名玩家零和马尔可夫游戏中学习NASH平衡,其中动作值函数通过繁殖内核Hilbert Space(RKHS)中的函数近似。关键挑战是如何在高维函数空间中进行探索。我们提出了一种新颖的在线学习算法,以最大程度地减少双重性差距来找到NASH平衡。我们算法的核心是基于不确定性的乐观原理得出的上和下置信度界限。我们证明,在非常温和的假设上,我们的算法能够获得$ O(\ sqrt {t})$遗憾,并在对奖励功能和马尔可夫游戏的基本动态下进行多项式计算复杂性。我们还提出了我们的算法的几个扩展,包括具有伯恩斯坦型奖励的算法,可以实现更严格的遗憾,以及用于模型错误指定的另一种算法,可以应用于神经功能近似。
translated by 谷歌翻译
解决零和游戏的算法,多目标代理目标,或更普遍的变化不平等问题(VI)问题在一般问题上是不稳定的。由于解决机器学习中这种问题的需求越来越大,近年来,这种不稳定性是一项重大的研究挑战。在本文中,我们概述了在针对广泛的VI问题类别的分析和设计中使用连续时间观点的最新进展。我们的演示文稿在单目标问题和多目标问题之间取得了相似之处,突出了后者的挑战。我们还为适用于一般VIS的算法制定了各种desiderata,我们认为实现这些Desiderata可能会从对相关的连续时间动态的理解中获利。
translated by 谷歌翻译
当客户具有不同的数据分布时,最新的联合学习方法的性能比其集中式同行差得多。对于神经网络,即使集中式SGD可以轻松找到同时执行所有客户端的解决方案,当前联合优化方法也无法收敛到可比的解决方案。我们表明,这种性能差异很大程度上可以归因于非概念性提出的优化挑战。具体来说,我们发现网络的早期层确实学习了有用的功能,但是最后一层无法使用它们。也就是说,适用于此非凸问题的联合优化扭曲了最终层的学习。利用这一观察结果,我们提出了一个火车征征训练(TCT)程序来避开此问题:首先,使用现成方法(例如FedAvg)学习功能;然后,优化从网络的经验神经切线核近似获得的共透性问题。当客户具有不同的数据时,我们的技术可在FMNIST上的准确性提高高达36%,而CIFAR10的准确性提高了 +37%。
translated by 谷歌翻译